查看原文
其他

解读:百度智能云大数据全景架构图如何赋能企业数字化转型


当前,数字经济成为我国经济高质量发展的新引擎,企业面临着以大数据为核心的数字化转型重要机遇和挑战。如何打造安全可靠的数据基础设施和价值挖掘平台,发挥数据资产的核心价值是企业能否赢取未来的关键所在。

9月28日,在上海举办的“云智技术论坛”智能大数据专场,百度智能云带来了云智一体的大数据产品架构全景图,为企业提供从构建新型数据基础设施、深度挖掘数据价值,到保障数据安全的全流程大数据解决方案。

百度智能云大数据产品架构全景图共三层:

  • 底层通过湖仓数据基础设施为企业提供数据存储、数据处理、数据开发等能力;

  • 中层的数据价值挖掘平台,充分利用百度智能大数据技术,实现企业数据资产价值最大化;

  • 顶层,即基于底层和中层的技术,帮助各行各业落地大数据应用落地。



构建新型数据基础设施


随着企业数字化转型的加速,企业日常运营中产生的数据量呈指数级增长,且数据的类型更加多样化,数据的应用场景日益繁杂,以及基于实时数据的快速决策越来越普及,单一的数据仓库或者数据湖解决方案满足不了用户对数据挖掘和使用的需求。于是湖仓一体架构成为云原生时代数据架构演变的必然趋势。

百度智能云湖仓一体架构的优势主要体现在三个方面。

首先是云原生,它是数仓基础架构的一个基本的演变方向。百度智能云云原生湖仓架构以云为基础,为客户提供弹性、低成本的数据存储和按需伸缩的计算资源。

在存储上,百度智能云 BOS 是业界领先的数据湖对象存储;在计算上,BMR 是灵活、高性价比的托管大数据处理,凭借先进的计算存储分离架构、智能弹性伸缩技术确保高可靠的同时,真正帮助用户实现用时高效获取资源、闲时及时释放资源,用最低的成本获取最高的计算性能。

其次,百度智能云通过数据湖架构为客户提供全面的数据分析能力。百度 Palo 是数据湖分析能力的核心产品,是百度基于 Apache Doris 构建的企业级 MPP 数据仓库,专门应对高并发、低延时的 PB 级实时数据仓库使用场景,全面兼容 MySQL 协议,可以毫秒级、针对亿万级数据进行及时的多维分析透视和业务探查。

在架构上来看,Palo 与常见的分布式存储系统的架构有些不同。Palo 主要有 FE(Frontend)和 BE(Backend)这两类系统进程,其中 FE 可以理解为 Palo 的管控节点,主要负责用户请求的介入、查询计划的解析、元数据的存储以及集群管理等工作,BE 主要负责数据存储以及查询计划的执行,这两类系统进程都可以横向拓展,而不需要依赖任何第三方系统(如 HDFS、ZooKeeper 等),这样高度集成的架构设计也极大简化了一款分布式系统的运维成本。

同时 Palo 在 FE 进程中实现了 MySQL 兼容协议层,这样用户通过标准 MySQL 客户端或其他各类工具即可便捷连接到 Palo,并且 Palo 还支持标准 SQL 语言,不论是简单的单表聚合、排序过滤或复杂的多表关联、子查询、窗口函数、自定义函数等,都可以通过 SQL 快速完成,极大减少用户的使用成本。

使用 Palo 时,可以从本地、RDS、BOS、百度智能云 MapReduce 等导入海量数据,进行大数据的多维分析。同时 Palo 还兼容主流 BI 工具,数据分析师可以通过可视化的方式分析和展示数据,快速获取洞察以辅助决策。此外,Palo 还提供了全新 UI 支持,5分钟上手,轻松实现建库建表、数据导入、数据查询。

最后,百度智能云利用数据湖管理与分析平台 EasyDAP,以统一元数据为抓手,一站式完成数据集成、治理、开发、分析、服务。EasyDAP 是全场景、低门槛、兼容开放、安全可靠的一站式数据湖管理与分析平台,其服务范围覆盖数据集成、数据管理、数据治理、数据开发、数据分析、数据服务,实现采、存、管、用一体化。


挖掘数据资产价值


完成数据基础设施构建后,企业如何实现数据资产价值最大化?百度智能云给出了答案。

首先,百度智能云通过数据资产管理与运营平台 DAMP 将各类数据经过基础治理后形成的数据资产进行统一管理,以资产目录的形式让企业内部资产更清晰化,同时通过应用超市帮助企业更好的运营数据资产,实现数据资产要素“好管理”、“好找到”、“好理解”、“好应用”。

其次,百度智能云通过商业智能和数据科学工具让数据发挥大价值。

>> 在商业智能方面,百度 Sugar BI 可以快速搭建数据可视化页面,帮助客户洞察过去。Sugar BI 是百度自助 BI 报表分析和制作可视化数据大屏的工具,直连 MySQL、本地 excel 等各类数据源,通过丰富的图表和拖拽式编辑帮助客户5分钟即可生成可视化页面,并以炫酷大屏呈现,让数据信息更直观。同时,Sugar 融合了百度语音、语义识别等多种 AI 技术,客户通过语音的方式就可以快速获取想要的数据。

>> 在数据科学方面,百度智能云通过全功能 AI 开发平台 BML 为数据科学的场景提供全流程开发支持,帮助客户预测未来。BML 整合了大数据和百度 AI 技术,可以实现从数据源管理、数据清洗与扩充、数据标注、数据预处理,到模型构建,模型管理与优化、预测服务部署、服务管理与监控等全流程能力支撑,降低企业应用数据技术的门槛。BML 为数据科学提供高效的算力管理和调度、高性能数据科学引擎、自动机器学习、丰富的建模方式四大核心功能。

>> 在算力管理和调度方BML 提供计算资源、存储资源的管理和调度。在这之上,提供一套作业执行与调度机制,帮助客户实现模型与服务管理。

>> 在高性能数据科学引擎方面,BML 提供高度兼容的 Pandas/Sklearn,面向单机的数据分析和机器学习,提供5-10倍的开源工具的数据处理能力。

>> 在自动机器学习方面,BML 提供自动建模工具,实现从数据拆分、训练数据集、黑盒优化算法、模型训练、效果评估等全流程的自动化。

>> 在丰富的建模方式方面,BML 提供丰富的交互界面、文本编辑器、可视化的拖拉拽、脚本调参等工具。


保护数据隐私安全


百度数据安全体系贯穿了大数据基础设施构建、数据价值挖掘的全过程,覆盖了数据全生命周期,从多个维度保护企业数据安全。

>> 在数据资产安全方面,百度数据安全体系提供细粒度数据权限、数据加密脱敏、统一身份认证、多租户资源隔离等技术,确保资产生命周期过程中的安全性,以及数据在企业内外部应用过程中的安全性。

>> 在隐私保护方面,百度数据安全体系实现了事前安全隐患发现、事中敏感数据保护、事后精准溯源的安全保护闭环,为客户提供安全合规的数据应用能力。

>> 在隐私计算方面,百度智能云通过“百度点石”实现“数据可用不可见”与“数据不动算法动”基础之上的隐私计算。百度点石数据安全及隐私保护方案是基于百度内部数据安全治理以及千行百业的合作伙伴业务实践,整合了信息安全技术、隐私计算技术、区块链技术,沉淀形成了整套的数据安全及隐私保护解决方案。

方案整合了四款隐私计算引擎:

  • 数据安全沙箱:利用信息安全技术,在集中计算的基础上,实现了数据不动算法动。以较高的安全性和无损的性能,实现数据价值的挖掘和应用。广泛的应用于集中数据源向外输出数据价值的各类场景。

  • 联邦学习平台:利用机器学习及密码学算法,在分散计算的基础上,通过调度多节点的算法、算力,实现了数据不动算法动。以较高的安全性的和较少的性能损失,实现多方数据的融合计算。广泛应用于多方数据联合构建机器学习模型的场景中。

  • 多方安全计算:利用密码学算法,在分散计算的基础上,通过协调多个节点的算法、算力,实现了数据的可用不可见。以极高的安全性和可接受的性能损失,实现多方数据在密态下的联合计算。可用于较多数据联合计算的场景。

  • 机密计算(MesaTEE):利用第三方可信硬件,基于密码学,在集中计算的基础上,通过安全硬件的保护,实现多方数据的密态计算。是目前世界上应用最广泛的隐私计算引擎,广泛应用于保护个人隐私、商机机密等场景中。


目前,百度点石数据安全及隐私保护方案已在政务、金融、医疗、电商、教育、媒体等多个领域成功落地。

安全、合规是百度智能云服务客户的基础。目前,百度智能云共获取了40+项国家、国际机构认可的资质认证,包括 SOC1 Type2、 SOC2 Type1 、SOC2 Type2、SOC3 等多项 SOC 安全审计,以及 MTCS 最高安全评级等国内外安全权威机构认证。同时,百度智能云是国内首家通过 ISO 27032、ISO 29151、ISO 27081、ISO 27017、BS 10012 认证的云服务商。


推动数据落地应用


百度智能云大数据治理方案已在智慧城市、智慧金融、智慧能源、智能制造等多个领域落地。

北京海淀城市大脑基于百度智能云数据治理和大数据分析落地了智能运营指挥中心,实现了城管事件的智能发现和自动化处理。例如,通过300余台检测基站,实现了空气质量实时监测预警;将976家重点单位纳入消防物联网监控系统,火灾防控和隐患处置实现最优化。

中国人寿财险大数据部门,将百度 Sugar BI 作为提升可视化界面开发效率的工具,在总公司及全国几十个分公司集中推广使用,实现了零编码“可见即可得”地展现页面开发,比原生开发的速度提升了几十倍,应用场景包括实时业绩展示、理赔关键指标监控、合作伙伴地图展现、系统运行监控等。

泉州水务与百度智能云合作构建了水务数据资产体系,解决了水务场景中基于人的不安全行为和物的不稳定状态的监管预警问题,同时将算法智能模型集中化管理,提升了模型复用率,实现了高效智能化监管。从应用效果看,泉州水务大脑使集团整体人员效率提升5%以上,制水供水单位能耗下降8%,分散式污水处理设施正常运行率提升5%。

凭借多年的技术积累和丰富的落地经验,百度智能云大数据平台产品和服务能力深受业界认可。数据湖管理与分析平台 EasyDAP、托管大数据平台 BMR、数据仓库 Palo、数据可视化 Sugar BI 均通过了信通院专项能力测评。

在行业内,数据湖管理与分析平台 EasyDAP 获2020中国国际大数据大会最佳用户体验奖;数据可视化 Sugar BI 获2021中国国际大数据大会创新方案奖;数据资产管理与运营平台 DAMP 获2021中国国际大数据大会应用实践奖等,彰显了百度智能云大数据平台领先的技术能力和创新解决方案。


在数字经济浪潮下,大数据领域呈现出 4V 特性更凸显、数据应用场景更繁杂、数据安全隐患更高的趋势。百度智能云打造的智能大数据产品架构全景图,为更多企业构建云智一体的大数据技术与能力体系,实现对更大规模、更多类型、更多源数据进行处理和应用,全面助推企业数字化转型。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存